Sparse Vector
疎ベクトル_
GPT-4.icon
概要
多くの次元が0で、一部にしか値が存在しないベクトル
次元数は数万〜数百万に及ぶこともある(特徴語数など)
Bag-of-WordsやTF-IDF、One-hotエンコーディングのような従来型の手法で生成される
具体例
例えば、次のようなベクトル(10万次元中、3つだけが非ゼロ):
[0, 0, ..., 0.8, 0, ..., 0.1, 0, ..., 0.3, 0, ..., 0]
使われ方
キーワードベースの検索に使われる(例:Lucene、Elasticsearchの内部)
単語の出現頻度などに基づく検索
メリット
意味のある特徴(単語など)との対応が明確
値が0の部分を省略して効率的に保存できる(スパースマトリクスなど)
デメリット
意味的な類似性を捉えにくい(例:言い換えや文脈には弱い)
高次元で非連続なため、計算コストが高くなりやすい